作为当今最受欢迎的机器学习模型之一,Graph神经网络(GNN)最近引起了激烈的兴趣,其解释性也引起了人们的兴趣。用户对更好地了解GNN模型及其结果越来越感兴趣。不幸的是,当今的GNN评估框架通常依赖于合成数据集,从而得出有限范围的结论,因为问题实例缺乏复杂性。由于GNN模型被部署到更关键的任务应用程序中,因此我们迫切需要使用GNN解释性方法的共同评估协议。在本文中,据我们最大的知识,我们提出了针对GNN解释性的第一个系统评估框架,考虑了三种不同的“用户需求”的解释性:解释焦点,掩盖性质和掩蔽转换。我们提出了一个独特的指标,该指标将忠诚度措施结合在一起,并根据其足够或必要的质量对解释进行分类。我们将自己范围用于节点分类任务,并比较GNN的输入级解释性领域中最具代表性的技术。对于广泛使用的合成基准测试,令人惊讶的是,诸如个性化Pagerank之类的浅水技术在最小计算时间内具有最佳性能。但是,当图形结构更加复杂并且节点具有有意义的特征时,根据我们的评估标准,基于梯度的方法,尤其是显着性。但是,没有人在所有评估维度上占主导地位,而且总会有一个权衡。我们在eBay图上的案例研究中进一步应用了我们的评估协议,以反映生产环境。
translated by 谷歌翻译
在十亿缩放的数据集中快速检索类似载体的现代方法依赖于压缩域方法,例如二进制草图或产品量化。这些方法最小化了一定的损失,通常是针对检索问题量身定制的平均平方误差或其他目标函数。在本文中,我们重新解释了流行的方法,例如二进制散列或产品量化器作为自动编码器,并指出它们在解码器的形式上隐式制作次优假设。我们设计了向后兼容的解码器,可从相同的代码改进向量的重建,这转化为最近的邻居搜索中的更好性能。我们的方法显着提高了流行基准的二进制散列方法或产品量化。
translated by 谷歌翻译
Knowledge distillation (KD) has gained a lot of attention in the field of model compression for edge devices thanks to its effectiveness in compressing large powerful networks into smaller lower-capacity models. Online distillation, in which both the teacher and the student are learning collaboratively, has also gained much interest due to its ability to improve on the performance of the networks involved. The Kullback-Leibler (KL) divergence ensures the proper knowledge transfer between the teacher and student. However, most online KD techniques present some bottlenecks under the network capacity gap. By cooperatively and simultaneously training, the models the KL distance becomes incapable of properly minimizing the teacher's and student's distributions. Alongside accuracy, critical edge device applications are in need of well-calibrated compact networks. Confidence calibration provides a sensible way of getting trustworthy predictions. We propose BD-KD: Balancing of Divergences for online Knowledge Distillation. We show that adaptively balancing between the reverse and forward divergences shifts the focus of the training strategy to the compact student network without limiting the teacher network's learning process. We demonstrate that, by performing this balancing design at the level of the student distillation loss, we improve upon both performance accuracy and calibration of the compact student network. We conducted extensive experiments using a variety of network architectures and show improvements on multiple datasets including CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet. We illustrate the effectiveness of our approach through comprehensive comparisons and ablations with current state-of-the-art online and offline KD techniques.
translated by 谷歌翻译
知识蒸馏(KD)是压缩边缘设备深层分类模型的有效工具。但是,KD的表现受教师和学生网络之间较大容量差距的影响。最近的方法已诉诸KD的多个教师助手(TA)设置,该设置依次降低了教师模型的大小,以相对弥合这些模型之间的尺寸差距。本文提出了一种称为“知识蒸馏”课程专家选择的新技术,以有效地增强在容量差距问题下对紧凑型学生的学习。该技术建立在以下假设的基础上:学生网络应逐渐使用分层的教学课程来逐步指导,因为它可以从较低(较高的)容量教师网络中更好地学习(硬)数据样本。具体而言,我们的方法是一种基于TA的逐渐的KD技术,它每个输入图像选择单个教师,该课程是基于通过对图像进行分类的难度驱动的课程的。在这项工作中,我们凭经验验证了我们的假设,并对CIFAR-10,CIFAR-100,CINIC-10和Imagenet数据集进行了严格的实验,并在类似VGG的模型,Resnets和WideresNets架构上显示出提高的准确性。
translated by 谷歌翻译
上印度河盆地喜马拉雅山为2.7亿人和无数的生态系统提供水。然而,在这一领域,降水是水文建模的关键组成部分。围绕这种不确定性的关键挑战来自整个盆地降水的复杂时空分布。在这项工作中,我们提出了具有结构化非平稳核的高斯过程,以模拟UIB中的降水模式。先前试图在印度库什karakoram喜马拉雅地区量化或建模降水的尝试通常是定性的,或者包括在较低分辨率下无法解决的粗略假设和简化。这项研究也几乎没有错误传播。我们用非平稳的Gibbs内核参数为输入依赖性长度尺度来解释降水的空间变化。这允许后函数样品适应印度河地区不同基础地形所固有的不同降水模式。输入依赖的长度尺寸由带有固定平方 - 指数内核的潜在高斯过程控制,以使功能级别的超参数平稳变化。在消融实验中,我们通过证明其对空间协方差,时间结构和关节时空重建的能力来激励所提出的内核的每个组成部分。我们通过固定的高斯工艺和深度高斯工艺进行基准测试模型。
translated by 谷歌翻译